Rによるデータ分析

Rによるクロス集計

クロス集計や分割表は、単に集計の方法というだけでなく、対数線形分析のように、集計したデータを分析の対象にする方法もあります。

クロス集計

クロス集計をRで作る時の実施例です。

この例では、Cドライブの「Rtest」というフォルダに、「Data.csv」という名前で下記のようなデータが入っている事を想定しています。この例では、元データの３列目が量的データで、１列目２列目が質的データとして処理されます。

１列目と２列目の組合せの数だけ、平均値が計算されます。 meanをsdにすると標準偏差が計算されます。

setwd("C:/Rtest")
Data <- read.csv("Data.csv", header=T)
aggregate(Data[,3]~Data[,1]*Data[,2],data=Data,FUN=mean)

分割表

分割表をRで作る時の実施例です。

table関数

setwd("C:/Rtest")
Data <- read.csv("Data.csv", header=T)
table(Data[,1], Data[,2])

count関数

質的変数を縦と横に並べずに集計する方法です。対数線形分析をする時には、この形に集計しておく必要があります。

dplyrのインストールが事前に必要です。

library(dplyr)
setwd("C:/Rtest")
Data <- read.csv("Data.csv", header=T)
count(group_by(Data,Data[,1:2],.drop=FALSE))

「.drop=FALSE」がないと、条件の組合せに当てはまるものがない時に「０」が出力されません。

下記は、量的変数があった場合に、１次元クラスタリングで質的変数（区間のデータ）に変換する技も入った場合です。
library(dplyr)
setwd("C:/Rtest")
Data <- read.csv("Data.csv", header=T)
for (i in 1:ncol(Data)) {
if (class(Data[,i]) == "numeric") {
Data[,i] <- droplevels(cut(Data[,i], breaks = 3,include.lowest = TRUE))# ３分割する場合。量的データは、質的データに変換
}
}
count(group_by(Data,Data[,1:3],.drop=FALSE))

Rによるデータ分析

杉原データサイエンス事務所によるコンサルティングとセミナー